WIPO专利WO1992009960A1 Data retrieving device

专利PDF首页>>WIPO专利

专利附录

专利说明

权利要求

类似技术

同族专利

引用文献

法律状态

优先权

专利摘要:

公开号:WO1992009960A1
申请号:PCT/JP1991/000011
申请日:1991-01-10
公开日:1992-06-11
发明作者:Cyuichi Kikuchi
申请人:Telematique International Laboratories；
IPC主号:G06F16-00

专利说明:
[0001] 明細書情報検索 ½理装置
[0002] 〔技術分野〕
[0003] 本発明は、情報検索を行う情報検索処理方式に関する。本発明は、特に全文検索処理方式あるいはマルチキーワードを用 {/、た部分一致検索処理方式に適するもので、入力された検索入力と検索対象の全文または登録キーワードとの照合回数を大幅に削減して高速に情報検索を行うことができる情報検索処理方式に関する。本発明はデ一タベースシステムにおいて全文検索処理またはマルチキーヮード検索を行う情報検索処理方式に適する。
[0004] 〔背景技術〕
[0005] 従来から、全文検索処理方式としては、全文の最初から最後まで、検索入力文字列との文字列照合を行検索者が指定する入力文字列と検索条件に合致する文書を選出する逐次検索方式や全文からあらかじめキーヮ一ドを抽出して検索フ了ィルを作成するィンデックス方式が全文検索技術として一般的である。また全文に出現する文字や文字列を表形式にして、検索入力文字列から分解して作成する文字や文字列の出現文書を絞り込むプリサーチ方式がある。
[0006] 逐次検索方式では、全文の最初から最後まで、検索入力文字列との照合を行うため、多量の文字列を有する文書を検索する場合、多くの時間を要する。このため、多量文書の検索では、高速な文字列照合を行う専用のプロセッサや L S Iが提案されているが、これらの方式では、ハードウェアが限定されるほか、検索処理を行う計算機と専用プロセッサや L S Iとの間での文字列転送に時間がかかり、システムとして満足できる高速性の実現が課題となっている。また、インデックス方式では、任意の文字列による検索の高速化が可能であるが、検索ファイルが巨大になる欠点がある。このため、任意の文字列による検索が十分にサポートされないという問題がある。また、プリサーチ方式では、高速性を実現するための列処理機構や文字列照合に専用のハードウエアが必要であるほか、登録時に抽出する文字列の精度向上が課題となっている。
[0007] 次に、マルチキーワードを用いたマルチキーワード検索処理方式としては、検索者が指定する入力文字列をキーヮード文字列として有しかつ検索条件に合致するキーワードからレコード蕃号をサーチする逐次検索方式や、キーヮードから検索入力可能な文 ijを作成して索弓 I形式に検索ファィルに格納し、検索者が指定する入力文字列と検索条件に合致するキーワードを検索ファィルのィンデックス構造を利用してサーチするィンデックス方式がマルチキーヮードを用いた部分一致検索技術として一般的である。
[0008] しかし、マルチキーワード検索処理の逐次検索処理方式は全文検索処理の逐次検索方式と同じく検索時間がかかる。また専用のノヽードウエアを用いると、ハードウエアが PI¾されるほか、検索処理を行う計算機と専用プロセッサや L S Iとの間での文字列転送に時間がかかる。このためシステムとして満足できる高速性の実現が課題となっている。
[0009] また、マルチキーワード検索におけるインデックス方式は、部分一致検索の高速化が可能であるが、検索ファイルが巨大になる欠点がある。このため完全一致、 Ι ^一致、後方一致の検索が使用されているが、中間一致はサポートされていないことが多い。これは中間一致を行うために、完全一致、前方一致、後方一致の検索ィンデックスとは別に、中間一致用のインデックスが多量に必要になり、検索フアイルの記憶容量が巨大となること、これに伴い検索時間が増大すること、および検索ファイルの^¹が容易でないことが主な理由となっている。また、システムによつては検索ファィルの規模の制約から、キーヮードの全ての前方一致や後方一致がサポートされていないこともある。しかし、検索者はキーワードの中の特徵ある文字や文字列を記憶することが多く、このため中間一致を含む部分 — ¾1食索のザポートにより検索がス厶ーズに行なえるようになることが求められている。
[0010] 本発明者は、全文中あるいはキーワードになり得る単語に同じ文字や同じ文字列が出現する頻度が低い特徴がある点に着目し、検索対象文字列あるいはキーヮ
[0011] 一ドを先頭文字から 1文字ずつ、その文字と次に続く合計 r文字で文字セットを作成して文字セット種ごとにグループ化した文字セットグループで検索ファイルを作成し、あるいは各文字毎にグループ化した文字グループで検索ファィルを作成し、検索時には、検索ファイル中から文字セットまたは文字の連続性を照合することにより検索を高速ィ匕することができることを見出した。
[0012] 本発明は、上述の観点から大量文書を対象とする全文検索またはマルチキーヮ一ドを用いた部分一致検索の高速化を実現でき、しかも特定のハードウエアに限定されず、検索処理を主記憶上で行うことにより専用プロセッサや L S Iとの文字列の転送が不要であり、文字セットと文字セット位置あるいは文字と文字位置に着目することにより任意の文字列検索が可能である汎用性に富む情報検索処理方式を提供することを目的とする。
[0013] 〔発明の開示〕
[0014] 本発明の第一の特徵は、検索対象となる文字列を検索を行う単位である検索単位に分けこの検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を付与する属性符号付与手段と、検索対象となる文字列から 1文字ずつ取り出し、その文字と次に続く合計 r文字で文字セットを作成し、検索単位における文字セッ卜の先頭文字位置を示す文字セット位置順序符号を付与する文字セット位置順序符号付与手段と、上記検索単位識別符号と文字セット位置順序符号と属性符号とからなる文字セット位置情報を作成して、この文字セット位置情報を文字セット種ごとの領域に格納して検索ファイルを作成する手段とを備えたことを特徴とする。
[0015] なお、文字セット位置情報は、 nを最大検索単位文字数、 aを最大属性数とす
[0016] "V" るとき { (検索単位識別符号 X II ) 十文字セット位置順序符号 } x a +属性符号なる数字コードとして与えられることが望ましい。
[0017] これにより、複数文字からなる文字セット位置情報により全文検索に使用する検索ファイルを作成できる。
[0018] また本発明の第二の特徵は、第一の特徵で作成された検索ファイルを備え、検索入力文字列の構成文字を先頭文字から r文字単位の文字セットに分解して検索入力文字セット列を作成し、この文字セッ卜と同じ文字セット種に格納されている文字セット位置情報を上記検索ファイルから取り出す手段と、この取り出した各文字セッ卜の文字セット位置情報間で、検索単位識別符号が共通で文字セット位置順符号の差が検索入力文字列の該当する文字セットの先頭文字位置差に等しくかつその属性符号が検索入力と等しい文字セット位置情報の組み合わせを抽出する手段と、この抽出された文字セット位置情報の組み合わせに基づいて文字セット列が属する検索単位および各文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置を検索結果として出力する手段とを備えたことを特徵とする。
[0019] なお検索入力文字歹 Uを先頭文字から Γ文字単位の文字セットに分解したとき、最後の文字セットが（r— 1 ) 以下になり、 r文字単位の文字セットを作成できないことがある。このときには、最後の文字セットの直前の文字セットの後部から不足文字数分の文字を取り出し、最後の文字セットの前部に連結して r文字単位の文字セットを作成することが望ましい。
[0020] また、検索 λ¾文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は、検索入力の出現頻度の低い文字セットから順に行うことか'望ましい。
[0021] また、検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は、検索入力文字列の全文における出現頻度の低い文字セットの文字セット位置順序符号を i、出現頻度の高い文字セットの文字セット位 gJlU 符号を jとするとき、（文字セット位置順序符号 iの文字セットの文字セット位置情報） - (文字セット位置順序符号 jの文字セッ卜の文字セット位置情報） = ( i - j ) x (最^ 性数）に合致する文字セット位置情報の組み合わせを抽出することが望ましい。また、検索対象文字列が記号を含む欧文字列の場合は、少なくとも 3文字単位の文字セットとし記号を含む欧文字のみの文字セット種グループで構成される検索フアイルを用いることが望ましい。
[0022] また、検索対象文字列が漢字を含む日本語文字列の場合は、少なくとも 2文字の文字セット種グループで構成される検索ファィルを用いることが望ましい。本発明の第三の特徴は、文字種別に文字位置情報が格納される検索ファィルを作成するもので、検索対象となる文字列を検索を行う単位である検索単位に分けこの検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を付与する属性符号付与手段と、検索対象となる文字列を各文字ごとに検索単位の中での位置を示す文字位置順序情報を付与する文字位置順序符号付与手段と、上記検索単位識別符号と文字位置順序符号と属性符号とからなる文字位置情報を作成して、この文字位置情報を文字種別の領域に格納して検索ファィルを作成する手段とを備えたことを特徴とする。
[0023] この文字位置情報は、 '
[0024] { (検索単位識別符号 x n ) +文字位置順序符号 } x a +属性符号
[0025] n ：最大検索単位文字数
[0026] a ：最大属性数。
[0027] なる数字コードとして与えられることが望ましい。
[0028] 本発明の第四の特徴は、第三の特徴で作成された検索ファィルを用いて検索処理を行うものであり、第三の特徴で作成された検索ファイルを備え、検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手段と、この取り出した各文字の文字位置情報間で、検索単位識別符号が共通で文字位置順序符号が検索入力の文字列と等 U、順序であり、かつその属性符号が検索入力と等し!/ヽ文字位置情報の組み合わせを抽出する手段と、この抽出された文字位置情報の組み合わせに基づいて文字列が属する検索単位および文字位置を検索結果として出力する手段とを備えたことを特徴とする。文字位置情報の組み合わせ抽出は検索入力文字の全文出現頻度の低、文字から J頃に行うこと力望ましい。
[0029] また、検索入力の文字列と同じ文字列を構成できる文字位置情報の組み合わせの描出は、検索入力文字列の全文における出現頻度の低、文字の文字位置順序符号を i、出現頻度の高い文字位置順序符号を jとするとき、（文字位置順序符号 ΐの文字の文字位置情報）一 (文字位置順序符号 iの文字の文字位置情報） = ( i - j ) χ (最大属性数）に合致する文字位置情報の組み合わせを抽出することが望ましい。
[0030] 本発明の第五の特徵は、マルチキーワード検索に係るものであり、検索対象となるレコードごとに昇順の符号を付与するレコ一ド識別符号付与手段と、このレコ一ドが有する各キ一ワードにキーワードの論理的な区分を示す属性符号を付与するキーワード属性符号付与手段と、このキーヮードから 1文字ずつ取り出し、その文字と次に続く合計 r文字で文字セットを作成し、キーワードにおける文字セッ卜の先頭文字位置を示す文字セット位置順序符号を付与する文字セット位置順序符号付与手段と、上記レコード識別符号とキーワード属性符号と文字セット位置順序符号とからなる文字セット位置情報を作成して、この文字セット位置情報を文字セット種ごとの令頁域に格納して検索ファィルを作成する手段とを備えたことを特徵とする。
[0031] なお、文字セット位置情報は、レコードが有する各キーワードをキーワード属性符号に対応するキーワード属性領域に配列して作成するキーワード列について、各キーワードの全ての文字セットをレコード識別符号とキーワード属性符号と文字セット位置順序符号とで整数からなるコ一ドに変換して作成するもので、レコード識 g|I x n + (P _a— 1 ) +文字セット位置順序符号
[0032] n :キーワード列文字数
[0033] P , ：キ一ヮ一ド属性: ^号 aのキーワード属性領域のキーヮード列における先なる数字コードとして与えられることが望ましまた本発明の第六の特徴は、第五の特徴で作成された検索ファィルの検索処理に係るもので、第五の特徴で作成された検索ファィルを備え、検索入力文字列の構成文字を先頭文字から Γ文字単位の文字セットに分解して検索入力文字セット列を作成し、この文字セッ卜と同じ文字セッ卜の文字セット位置情報を上記検索ファイルから取り出す手段と、この取り出した各文字セットの文字セット位置情報間で、レコード識別符号とキーワード属性符号が共通で文字セット位置順序符号の差が検索入力文字列の該当文字セットの先頭文字位置差に等しく、かつそのキーワード属性符号が検索入力と等しい文字セット位置情報の組み合わせを抽出する手段と、この抽出された文字セット位置情報の組み合わせに基づいて検索入力文字列に対応するレコード識別符号を検索結果として出力する手段とを備えたことを特徵とする。
[0034] なお、検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の抽出は、検索入力文字セット列の全キーワードにおける出現頻度の低い文字セットの文字セット位置順序符号を i、出現頻度の高い文字セットの文字セット位置順序符号を jとするとき、（文字セット位置順序符号 iの文字セットの文字セット位置情報）一（文字セット位置順序符号； iの文字セットの文字セット位置情報） = i一 jに合致する文字セット位置情報の組み合わせを抽出することが望ましい。
[0035] なお、キーワードが記号を含む欧文文字列の場合は、少なくとも 3文字記号単位の文字セットとし、記号を含む欧文字のみの文字セット種グループで構成される検索ファィルを用いることが望ましい。
[0036] また、キーワードが漢字を舍む場合は、漢字については 1文字単位の文字位置情報とし、仮名文字については 2文字単位の文字セット位置情報とする検索ファィルを用いることができる。
[0037] 本発明の第七の特徴は、マルチキーワード検索で 1文字単位の文字位置情報を用いるもので、検索対象となるレコ一ドごとに昇順の符号を付与するレコ一ド識別符号付与手段と、このレコードが有する各キーワードにキーワードの論理的な区分を示す属性符号を付与するキーヮード属性符号付与手段と、このキーワードを各文字ごとに分解し各文字にキーヮ一ド中での位置を示す文字位置順序符号を付与する文字位置順序符号付与手段と、上記レコ一ド識別手段とキーヮード属性符号と文字位置順序符号とからなる文字位置情報を作成して、この文字位置情報を文字種ごとの領域に格納して検索ファィルを作成する手段とを備えることを特徴とする。
[0038] なお、文字位置情報は、レコ一ドが有する各キーヮードをキーヮード属性符号に対応するキーヮ一ド属性領域に配列して作成するキーヮード列について、各キ一ワードの全ての文字をレコード識別符号とキーワード属性符号と文字位置順序とで整数からなるコ一ドに変換して作成するもので、
[0039] レコード識別符号 x n + (Ρ _α - 1 ) 十文字位置順序符号
[0040] n :キーワード列文字数
[0041] P a ：キーヮード属性符号 aのキーヮード属性領域のキーヮード列における先なる数字コードとして与えられることが望ましい。
[0042] 本発明の第八の特徴は、第七の特徴で作成された検索ファィルの検索処理に係るもので、第七の特徵で作成された検索ファイルを備え、検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手段と、この取り出した各文字の文字位置情報間で、レコード識別符号とキーヮ一ド属性符号が共通で文字位置順序符号が検索入力の文字列と等しい順序であり、かつそのキ一ヮ一ド属性符号が検索入力と等しい文字位置情報の組み合わせを抽出する手段と、この抽出された文字位置情報の組み合わせに基づ、て検索入力文字列に対応するレコード識別符号を検索結果として出力する手段とを備えたことを特徵とする。なお、検索入力文字列と同じ文字列を構成できる文字位置情報の組み合わせの抽出は、検索入力文字列の全キーワードにおける出現頻度の低い文字の文字位置順序符号を i、出現頻度の高い文字の文字位置順序符号を jとするとき、（文字位圜,序符号 Ϊの文字の文字位置情報）（文字位置順序符号 jの文字の文字位置情報） = i— jに合致する文字位置情報の組み合わせを抽出することが望ましい。
[0043] 本発明の原理について説明する。
[0044] 文書中に同じ文字列が出現する頻度は低い。例えば広辞苑（岩波書店発行の国語辞典）の見出し語の説明文は約 900万文字あるが、その中で仮名文字の出現頻度を調べると平均約 53200回と高い。しかし、仮名 2文字の文字列の出現頗度を調べると平均出現頻度 472 回と低くなる。このため、仮名 2文字を文字セッ卜とすると、検索入力が n文字の場合、全文から抽出する照合対象は平均すれば（II / 2 ) X 72個の文字セット位置情報となる。また、漢字は文字種が仮名文字より多いので、漢字 2文字の文字列の出現頻度は仮名文字よりさらに低くなり、全文から抽出する照合対象も仮名文字より少なくなる。
[0045] さらに漢字 1文字だけについてみても、上述の広辞苑の見出し語の説明文については J I S第 1水準の漢字の出現頻度は平均 1155回である。このため、 J I S 第 1水準 2965種の漢字については、検索入力が n文字の場合、広辞苑の見出し語の説明文書から抽出する照合対象は平均すれば n X 1155文字となる。
[0046] 一般的に検索入力は数十文字以下であるため、出現頻度の高 (/、文字を含む文字列であつても、全部の文字を逐次照合するものに比べるとその照合回数は極めて少なくなる。
[0047] 例えば、「通信」という 2つの文字列を使用する用語は多々あるとしても「通信 · ·」という文字列は「通信回線」、「通信装置」のように「通信」の文字以降で同一の文字が発生する頻度が低くなる。この結果、「通信」に続く「回線」や「装置」の文字列を照合すると、検索対象が急激に絞り込まれていく。このようにして、検索入力文字セット列の構成文字セッ卜で全文または登録キーワードとの照合を進めていくと、それまでに得られた検索対象候補の文字セット列の中から、検索入力文字セット列と異なる文字セット列が削除され、照合する構成文字セットごとに検索対象が絞り込まれていく。特に、検索入力の中の全文出現頗度あるいは全キーワードにおける出現頻度の低い文字セットから順に照合を行うと一層絞り込まれて照合一致を取る回数を低減できる。
[0048] したか、つて、検索対象となる文字列（全文または登録キーワード）を構成する各文字セットが文字列中のどの位置にあるかをも示す文字セット位置情報を文字セット種ごとに格納した検索ファイルを作成し、この検索ファイルに対して検索入力文字セット列との照合一致を行うことにより文字列検索における照合一致処理回数を大幅に低減することができる。
[0049] さらに漢字のように出現頻度の低い文字については文字セットとせずに、 1文字単位で文字種ごとの領域に格納して検索ファイルを作成し、この検索ファイルに対して検索入力文字列との照^""致を行う場合も同じく照合一致処理回数を大幅に削減できる。
[0050] この検索ファィルの作成は次のように行う。なおこの説明は全文検索処理用の文字セッ卜の例で説明する。
[0051] まず検索对象となる文字列を検索単位に分ける。検索对象文字列が例えば書籍や論文の場合、目次、序文、章または節等のタイトル、本文、図または表等のタィトル、文献という順序で構成されており、それぞれの構成部分が論理的に区分されているため、検索単位として構成できる。そこで書籍または論文を論理的に検索単位に分け、それぞれの検索単位ごとに出現順序に従って昇順に識別符号を付与する。このとき:^については複数の検索単位に分割し、それぞれ他の検索単位とともに一連の識別符号を付与することもできる。また、この検索単位について、目次、序文、タイトル、本文のようにその検索単位の論理的な種別が区分されるので、その論理的な種-別を属 ί生として、その属性を示す属性符号を付与する。
[0052] そして、文字列を先頭文字から 1文字ずつ取り出し、その文字と次に続く合計 r文字で文字セットを作成し、各文字セットに検索単位識別符号と各文字セットの先Ι¾字位置を示字セット位置順序符号と検索単位の属性符号とからなる文字セット位置情報を^^し、文字セット種ごとに構成された領域に格納し、検索対象文字列を各文字セット種別に格納する検索ファィルを作成する。この検索ファイルは、文字セットの種別ごとに文字セット位置情報が格納された形のファイル構造となる。
[0053] 検索処理は、検索入力を先頭文字から r文字単位の文字セッ卜に分解して検索入力文字セット列を構成し、分解した文字セットと同じ文字セッ卜の文字セット位置情報を検索ファィルから取り出して、検索単位識別符号が共通しており文字セット位置順序符号の差が該当する検索入力文字列の文字セッ卜の先頭文字位置差に等しくかつ属性符号が等しい文字セット位置情報の組み合わせを照合して取り出す。なお検索入力文字列を先頭文字から r文字単位の文字セットに分解したとき、最後の文字セットが（r— 1 ) 以下になり、 r文字単位の文字セットを作成できないことがある。このときには、最後の文字セットの直前の文字セッ卜の後部から不足文字数分の文字を取り出し、最後の文字セットの前部に連結して r 文字単位の文字セットを作成する。
[0054] この照合処理は、検索入力と検索ファイルとの文字セット列の連続性の一致と属性の一致とをみるもので、検索ファイル中の文字セット位置情報から検索単位識別符号が共通していて文字セット位置順序符号の差が該当する検索入力文字列の文字セットの先頭文字位置差に等しくかつ属性符号が検索入力と同じ文字セットの組み合わせを取り出すことにより行う。
[0055] これにより、全検索ファィルの照合が不要になり、検索ファィルにある検索入力と同じ文字セットの文字セット位置情報だけの照合一致を行えばよいので、照合回数は逐次照合に比べるときわめて低減することができる。また、一般的に同じ文字列の出現頻度が低いので、 _Γ文字の文字セットを照合するたびに検索対象が絞り込まれるので、照合回数は低減していく。
[0056] さらに、検索ファイルから取り出した文字セット位置情報を照合するとき、検索入力の中の全文出現頻度の低い文字セットから順に行うと検索対象が一層絞り込まれ、照合一致をとる回数がさらに低減できる。
[0057] このようにして検索入力に合致する文字列を見出したときはその検索単位識別符号から抽出すべき検索単位と文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置を抽出して、検索者に検索結果として出力する。全文検索において、文字種ごとの検索ファイルを用いるときは、全文の構成各文字を文字種別の領域に格納して検索ファィルを作成する。この検索ファィルに対して検索入力文字列を各文字ごとに分解し、各文字の文字位置情報を検索ファィルから取り出して、検索単位識別符号が共通で検索入力文字列と等しい順序でかつ属性符号が検索入力と同じ文字位置情報の組み合わせを取り出して、検索単位と文字位置を検索結果として出力する。
[0058] さらにマルチキーワード検索の場合においては、キーワードを有するレコードについて登録順序に従って昇順のレコード識別符号を付与し、各キーワードについては、そのキーワードの論理的な種別を属性としてその属性を示すキーワード属性符号、およびキーワードにおける文字位置順序符号または文字セット位置順序符号を与えて、この 3つの符号から文字位置情報または文字セット位置情報を作成して、文字種ごと、または文字セットごとの領域に格納して検索ファイルを作成する。
[0059] マルチキーヮード検索処理では、検索入力文字列と検索入力文字列属性との対が 1個 Hi入力される。各検索入力文字列について検索入力文字列を 1文字、あるいは文字セットに分解し、検索ファイル中から検索入力を構成する文字と同じ文字位置情報または検索入力を構成する文字セットと同じ文字セット位置情報を取り出して、レコード識別符号が共通で文字位置順序符号または文字セット位置順序符号とキーヮード属性符号が検索入力と等しい文字位置情報または文字セット位置情報の組み合わせを照合して取り出す。取り出した文字位置情報または文字セット位置情報の組み合わせからレコード識別番号を検索結果として取り出す。
[0060] 〔図面の簡単な説明〕
[0061] 図 1は本発明実施例に使用する情報検索処理装置の構成例。
[0062] 図 2は第一実施例の検索ファイル例。
[0063] 図 3は第一^ M例の各文字セット群の第 2、第 3文字組み合わせ一覧。
[0064] 図 4は第一例文字セットグループアドレス表。図 5は第一実施例の検索ファィルの登録例。
[0065] 図 6は第一実施例の検索ファィル作成処理手順を説明するフローチャート。図 Ίは第一実施例の検索処理手順を説明するフローチャート。
[0066] 図 8は第二実施例の検索ファィル。
[0067] 図 9は第二実施例の文字セット群一覧。
[0068] 図 10は第二実施例の文字セットグループアドレス表。
[0069] 図 11は第二実施例の検索ファィルの登録例。
[0070] 図 12は第三実施例の文字欄ァドレス表。
[0071] 図 13は第三実施例の検索ファィルの登録例。
[0072] 図 14 a、 bは第三実施例の検索ファィル作成処理手順を説明するフローチヤ一ト。
[0073] 図 15は第三実施例の検索処理手順を説明するフローチャート。
[0074] 図 16は第四実施例のキーヮード列の例。
[0075] 図 17は第四実施例の文字セット位置情報作成例。
[0076] 図 18は第四実施例の検索ファィルの登録例。
[0077] 図 19 a、 bは第四実施例の検索ファィル作成手順を説明するフローチャート。図 20 a、 bは第四実施例の検索処理手順を説明するフローチャート。
[0078] 図 21は第五実施例のキーワード列の例。
[0079] 図 22は第五実施例の文字セット位置情報作成例。
[0080] 図 23は第五実施例の検索ファィルの登録例。
[0081] 図 24は第六実施例の文字位置情報作成例。
[0082] 図 25は第六実施例の検索ファィルの登録例。
[0083] 図 26 a、は第六実施例の検索ファィル作成手順を説明するフローチャート。図 27 a、 bは第六実施例の検索処理手順を説明するフローチャート。
[0084] 〔発明を実施するための最良の形態〕
[0085] 図 1は本発明実施例における情報検索処理装置の構成を示すものである。本実施例の情報検索処理装置は、各種演算処理あるいは判断処理を行う C P U 1と、検索処理、検索ファイル作成等のプログラム、作成されたあるいは検索処理を行うための検索ファイル、検索入力等を記憶するメモリ 2、キーボード 4、ディスプレイ 5を接続する入出力部 3、各種情報が記憶される外部記憶装置 7を接続する外部記憶装置制御部 6、 C P U K メモリ 2、入出力部 3、外部記憶装置制御部 6を接続する共通バス 8とを備える。
[0086] 次に第一実施例での情報検索処理を説明する。この第一実施例は、特に欧文文字文書を全文検索対象とするときの実施例である。
[0087] 本実施例での情報検索処理は、検索処理に供するための文字列について文字列の先頭文字から 1文字ずつ取り出し、その文字と次に続く文字の合計 3文字で文字セットを作成し、これらの文字セット種ごとにグループ化した文字セットグループで構成される検索ファィルを作成する検索ファィル作成処理と、検索ファィルとの照合一致を行って検索入力に合致する文字列を抽出する検索処理との二つに分けられる。
[0088] まず、検索ファイル作成処理について説明する。
[0089] この検索ファイル作成処理は、大まかに分けると、 ①検索ファイル領域確保、 ②各文字セットへの文字セット位置情報の付 ·与、 ③文字セット種別ごとにグループ化した文字セット位置情報の検索ファィルへの格納の 3つに分けることができる。この各処理についてそれぞれ説明する。
[0090] ① 検索ファイル領域確保
[0091] 検索フ了ィルは、図 2に示すように、 A S C I Iコード表に記載されている A S C I Iコード「2 0」〜「7 F」までの文字順に配列された文字セット群で構成される。各文字セット群は図 2に示す各文字セット君の名称を表す文字を先頭文字とする 3文字で構成される。各文字セット群の 2文字目と 3文字目は、図 3 に示すように A S C I Iコード表に記載されている文字で構成される。例えば A 文字セット群は、「AA 」、「AA！」、 · · · 「AA} 」、「AA〜J の文字セットで構成される。そこで全文の先頭文字から 1文字ずつ取り出し、その文字と次に続く文字の合計 3文字で文字セットを作成し、これらの文字セット種ごとに出現頻度を計数する。これにより、検索ファイルを構成する各文字セット種グループに登録される文字セット位置情報の数がわかるので、全文字セット種グループで構成される検索ファイルの領域を確保できる。また同時に、各文字セット種グループに登録される文字セット位置情報の数から、検索ファイル内に連続して格納される文字セット種グループの先頭審地もわかる。この文字セット種グループの先頭審地を図 2と図 3で示す各文字セットの記載順に配列したのが図 4 に示す文字セットグル一プアドレス表である。
[0092] ② 各文字セットへの文字セット位置情報の付与
[0093] ここで述べる文字セット位置情報は、文字セッ卜が属する検索単位が現れる順番を示す検索単位番号と、検索単位におけるその文字セットの出現する位置をその文字セッ卜の先頭文字の位置で示す文字セット位置蕃号と、検索単位の論理的な種別を示す属性審号とで作成される。
[0094] まず検索単位とその属性について説明する。例えば一般的な書籍は、目次、序文、章または節のタイトル、本文、図または表のタイトル、参考文献などの部分で構成されており、ほぽこの順序に従つて現れる。この書籍の内容^検索するとき、検索対象としてこの部分を検索単位とし、その検索単位を検索出力とすることが便利であるし、また検索目的に合致することが多い。すなわち、検索目的によってタイトルのみや本文のみを検索対象として指定することが実際の検索では多いからである。
[0095] したがって、一つの書籍を全文検索対象として検索する場合に、その書籍を構成する論理的な部分に分けて検索結果を出力することが好ましい。この検索単位は、検索対象の文字列の論理的な分類を示すものであるため、この検索単位に論理的区分に従って属性審号を付与する。例えば、属性蕃号として、目次に「1」、序文に「2」、章または節のタイトルに「3」、図または表のタイトルに「4」、本文に「5」、参考文献に「6」を付与する。
[0096] そしてこの検索単位が書籍に出現する順序に 1から昇順に蕃号を付与する。これを検索単位番号とする。なおこの際に本文が長文である場合には適当な区分に分けて本文を複数の検索単位に分け、検索単位ごとに出現する順位で検索単位審号を付与することもできる。
[0097] 次に検索単位ごとに、検索単位の先頭から 1文字ずつ取り出し、その文字と次に続く文字の合計 3文字で文字セットを作成し、作成順に 1、 2、 3 · · ·と昇順に審号を付与して文字セット位置審号とする。検索単位の構成文字の最後の文字にはを示す特殊文字 EM (エンドマーク）を 2文字付加し、この EM文字と逸链させて文字セットとして、文字セット位置番号を付与する。なお、 EM文字は、 ASC I Iコード表の「DELj の ASC I Iコード「7 Fj とした。そして、このように与えられた検索単位番号、文字セット位置 Φ号、属性蕃号から検索単位を構成する文字セットを整数からなるコードに変換して文字セット位置情報を作成する。
[0098] この文字セット位置情報は、最大検索単位文字数を n、最大属性数を aとするとき、
[0099] 文字セット位置情報コード- (検索単位審号 xn+文字セット位置番号 } xa
[0100] +属性番号 …ひ）式で与えられる数字コードである。
[0101] 例えば、検索単位の最大文字数 n =10000、最大属性数 a=10とし、 8審目の検索単位である：^ (属性蕃号 =5) の先頭から第 121〜130蕃目の文字位置に「d 0 c ume n t J という文字列があった場合、この文字列の中の「d o cumen t」 ¾「do c」、「o c u」、「c um」、「ume」、「men」「en t」、「n t 」「t 」の文字セットに分 g军され、それぞれ「801215」「801225」、「801235」、「801245」、「801255」、「801265」、「801275」、「801285」の文字セット位置情報が与えられる。
[0102] そしてこのように文字セット位置情報を 4バイトのコードで構成すれば、最大 10000文字数の検索単位を 2³²X (nxa) 43万個取り扱うことが可能であ。
[0103] ③ 文字セット位置情報の検索ファィルへの登録次にこの各文字セットごとに付与された文:^セット位置情報を検索ファイルに登録する。
[0104] 上述のように文字セット種別グループは、図 2と図 3に記載された順に検索フアイルに格納される。そして各文字セット種別グループに文字セット位置情報を登録する。この文字セット位置情報の登録は、該当する文字セット種グループの未格納領域の先頭にそれぞれ文字セット位置情報を格納することによつて行われる。このため、検索単位順に登録するとすれば文字セット種グループ内には文字セット位置情報が数値順の昇順に登録されることになる。
[0105] 上述の「d 0 c u m e t」の文字セット位置情報を検索ファィルに登録した例を図 5に示す。このとき、各グループ内の文字セット位置情報は昇順に格納される。このファイル容量は、文字セット位置情報が 4バイ卜であると、下記に示す容量になる。
[0106] 4バイト x (検索単位文字数） i
[0107] i = 0 なお、文字セット位置情報の追加登録は、追加文書の各文字セットに該当するグループの未格納領域の先頭に新規文字セット位置情報を追加することで行う。また、削除は削除文書の各文字セットに該当するグループ内の該当文字セット位置情報を特殊記号（ここでは A S C I Iコードの「 0 0 0 0」）に変更することによって行う。これにより追加登録と削除を短時間に行うことができる。
[0108] なお上述のようにこの検索ファィルの各文字セット種グループごとに格納された文字セット位置情報は、図 4の文字セットグル一プアドレス表の各文字セットグループ先頭蕃地をディレクトリとして取り出すことができる。
[0109] 以上の検索ファィルの作成処理の流れを図 6に示す。
[0110] すなわち、各文字セットの出現度数を計数して文字セットグル一プアドレス表を作成し（S ll、 12) 、検索ファイルの領域を確保する（S 13) 。次に検索単位登録順位カウンタを k = lに初期設定して、検索単位審号を「1」に、最大検索単位文字数を「n =10000 」に、最大属性数を a =10に設定する（S 14) 。そして最初の検索単位を取り出す（S 15) 。ここまでが登録の前処理である。ここから検索単位ごとの登録処理となり、まず、文字セット位置審号を P = 1に、登録する検索単位の構成文字数 m、登録する検索単位の属性番号 a i を設定する（S 16) 。次に、検索単位の先頭文字から順に、文字セット位置審号 Pに該当する文字セット位置情報を
[0111] D= (k X 100000+ p ) x lO+ i ··· ( 2 )
[0112] の式で作成する（S 17) 。文字セット位置審号 pにある文字セッ卜と同じ文字セット種グループが格納されている検索ファイルの文字セットグループの先頭番地を示 «字セットグループ先頭蕃地を文字セットグル一プアドレス表から取り出して（S 18) 、文字セットグループ先頭審地が示す検索ファイルの文字セットグループの未格納領域の先頭行に文字セット位置情報を格納する（S 19) 。そして、 P = P + 1、 m=m- 1とし、検索単位内の全ての文字セットを処理したところで、次の検索単位の処理に移る（S 23、 24) 。
[0113] 次にこのようにして作成された検索ファィルを用いる検索処理について説明する。
[0114] 本実施例では、検索ファイルから取り出した文字セット位置情報をもとに検索入力文字セット列と同じ文字セット列を文字列照合して全文検索を行う例で説明する。まず、その検索処理は大まかに分けると以下の構成からなっている。
[0115] ①検索入力文字列を先頭文字から 3文字単位の文字セッ卜に分解し、検索入力文字セット列を作成する。
[0116] ②検索入力文字セット列の各文字セッ卜に該当する文字セットグル一プアドレス表内の文字セットグループ先頭蕃地を算出する。
[0117] ③検索入力文字セット列を全文出現頻度の少ない文字セットから順に並べ変え。
[0118] ④並べ変えた文字セット列の先頭から順に該当する文字セット種グループを検索フアイルから取り出してそこに格納されている文字セット位置情報から検索入力文字セット列を構成できる文字セット位置情報の組み合わせを取り出す。 ⑤抽出した文字セット位置情報から検索入力と同じ属性を有する文字セット位置情報を取り出し照合一致とする。
[0119] ⑥照合一致した文字セット位置情報から検索単位蕃号と文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置銎号を検索結果として出力する。
[0120] 次に具体的にそれぞれの処理を説明する。
[0121] ① 検索入力文字セット列の作成
[0122] 検索ファイルに格納されている文字セッ卜と照合可能なように、検索入力文字列を先頭文字から 3文字単位の文字セッ卜に分解し、検索入力文字セット列とすなお、検索入力文字列を先頭文字から 3文字単位の文字セッ卜に分解したとき、最後の文字セットが 3文字未満になり 3文字単位の文字セットを作成できないことがある。このときには、最後の文字セットの直前の文字セッ卜の後部から、不足文字数分の文字を取り出し、最後の文字セッ卜の前部に連結して 3文字単位の文字セットを作成する。
[0123] ② 各検索入力文字セッ卜に該当する文字セットグル一プアドレス表内の文字セットグル一プ先頭審地の算出
[0124] 検索ファィルの作成時と同様に、各検索入力文字セットの図 2と図 3で示される文字セット順位を算出し、これを文字セットグル一プアドレス表における検索入力文字セッ卜のアドレスポインタとする。
[0125] ③ 出現頻度順の並べ変え
[0126] そして、検索ファィルの各文字セット種グループの先頭番地を示す文字セットグループアドレス表内の文字セットグループ先頭番地を参照して、各検索入力文字セットの全文出現頻度を調べ、検索入力文字セット列を全文出現頻度の低いものから順に並べ変える。上述のように、文字セットグループアドレス表内の先頭番地は、検索ファイルに格納されている各文字セット種グループの先頭審地を示しており、次に続く文字セットグループ先頭蕃地との差をとれば、各文字セット種グループに格納されている文字セット位置情報の数から、全文中に出現する文字セット種別頻度がわかる。
[0127] これは全文出現頻度の低い文字セッ卜から照合一致を行うことにより、検索フアイルに格納された各文字セッ卜の文字セット位置情報との照合回数をきわめて低減できるためである。すなわち文字セット位置情報を照合して各文字セッ卜の連続性を調べる場合に二つの文字セット種グループ内の文字セット位置情報中の検索単位番号と文字セット位置審号と属性番号とを照合するため、その二つの文字セット種グループ内に格納されている文字セット位置情報の数が少なければそれだけ照合回数を少なくすることができる。したがって、文字セット位置情報の照合を行うときに、全文出現頻度の低い文字セットから照合を行って照合回数を低減させる。特に検索入力文字が多くなるほど出現頻度の低い文字セットが含まれる割合が高まるため低減効果は大きい。
[0128] ④ 文字セット列の照合
[0129] 全文出現の低い文字セットから文字セットグループアドレス表を参照してそれぞれの文字セット種グループに格納されている文字セット位置情報を取り出す。そして取り出した文字セット位置情報をもとに、全文出現頗度の低い文字セット種グループから、各文字セット種グループ間で検索単位が等しくかつ文字セット位置番号の差が検索入力文字列の該当する文字セットの先頭文字位置差に等しい文字セット位置情報の組み合わせを抽出する。この文字セット位置情報差の照合は、 a =最^性数とすると、
[0130] 検索入力文字セット列の全文出現頻度の低い文字セッ卜の文字セット位置蕃号を ί、全文出現離の高い文字セットの文字セット位置審号を jとするとき、
[0131] { (文字セット位置審号 iの文字セットの文字セット位置情報）一（文字セット位置番号 jの文字セットの文字セット位置 ί青報） } = ( i - j ) x a … ( 3 ) の式で照合すればよい。
[0132] この文字セット種グループ間での文字セット位置情報差の照合処理は、全文出現頻度の低い文字セット種グループの文字セット位置情報とそれより全文出現頻度の高い文字セット種グループの文字セット位置情報との差を取って文字セットの連続を照合する。
[0133] 検索入力文字列における任意の文字セットを ABCと DEFとすると、該当する文字セット位置情報を抽出するには、 Aと Dの文字位置差が Lであるとし、グループ ABCの文字セット位置情報を A _x 、グループ DEFの文字セット位置情報を D_y としたとき
[0134] A« +L · a >D_y なら D_y を削除
[0135] A, +L · a<D_y なら Α_κ を削除
[0136] Ακ +L · a=O_y なら A_x、 D_y を合致として共に削除
[0137] a =最大属性数
[0138] というように不連続な文字セット位置情報を照合対象から削除していくことによりその照合回数を削減させる。
[0139] 例えばグループ ABCの文字セット位置情報が
[0140] 100052、 200113、 300105、 500205、 600083、 700054
[0141] グループ D E Fの文字セット位置情報が
[0142] 100022、 300015、 300135、棚 35、 500025
[0143] 文字位置差 L = 3、最大属性数 a =10
[0144] であった場合、この二つのグループ間の照合回数は全体で 7回だけですみ、グループ内の全ての文字セット位置情報を照合する必要はない。
[0145] ⑤ 属性番号の照合
[0146] 文字セット列照合から得られた文字セット位置情報の中から、検索入力と同じ属性審号の文字セット位置情報を取り出すことにより、検索入力で指定した属性に一致する文字セット位置情報を抽出できる。
[0147] ⑥ 検索結果の抽出
[0148] 取り出した文字セット位置情報から検索単位審号と文字セッ卜構成各文字の検索単位における先頭文字からの位置を示す文字位置審号を検索結果として抽出する。なお、検索入力が複数ある場合には、 2審目以降の検索入力に対しては、検索入力の最初の文字セットに該当する文字セッ卜種グループからそれまでに得られた検索単位審号を有する文字セッ卜位置情報を取り出した後、検索入力の次の文字セット以降の処理を行うようにする。これは第 1番目の検索入力で得られた検索結果と同じ検索単位に含まれる文字セットを第 2番目以降の検索入力から抽出することを百的とする。
[0149] 以上の②〜⑥の動作を具体例を挙げて説明する。検索対象として本文が指定され、検索入力文字列としては「d 0 c ume n」が指定されたとする。この場合本文の属性審号は「5」とする。なお、図 5の検索ファイルを対象として説明す検索入力が「d 0 c ume njであるから、検索入力文字セットは「d o c」と「umej と「n」とになる。しかし「n」は 1文字なので「n」の前にある 2文字と結して「men」とする。全文出現頗度が「ume」く「do c」 < 「men」の順であり、照合をこの順序に行うとすると、まず検索ファイル中の「ひ me_lの文字セットグループ攔から取り出した文字セット位置報と「d o c j の文字セットグル一プ欄から取り出した文字セット位置情報との間で、検索入力「do cumen」における「u」と「d」との文字位置が各々「4」と「1」であるから、これらの差に最大属性数 =10を乗算した「30」になる文字セット位置情報を抽出して、図 5の検索ファィルの「 u m e j 内の文字セット位置情報の「801245」と「文書」内の「801215」とを連続性ある文字セット位置情報の組み合わせとして抽出することができる。次に、この照合結果と「menj の文字セットグループ欄から取り出した文字セット位置情報との間で、検索入力「 do c ume nj における「u」と「m」との文字位置が各々「4」と「5」であるから、これらの差に S 属性数 =10を乗算した「一 10」になる文字セット位置情報を抽出して、図 5の検索ファイルの「ume」内の文字セット位置情報の「801245」と「menj 内の「801255」とを連続性ある文字セット位置情報の組み合わせとして抽出することができる。さらに、検索条件は「本文」であるから、これまでの文字列照合で残った文字セット位置情報の中から、属性番号が「5」の文字セット位置情報として、「80 1215」と「801245」と「801255」とを抽出できる。
[0150] したがって、この文字列が属する検索単位番号「8」の検索単位と文字位置番号「121〜127 」を検索結果として出力する。
[0151] この検索処理動作を図 7にフローチャートとして示す。
[0152] すなわち、検索入力を取り出し、検索入力文字列を先頭文字から 3文字単位の文字セットに分割して検索入力文字セット列を作成し、照合回数 nをその文字セット数ー1、属性番号 a i を設定し、各文字セッ卜の出現頻度を文字セットグル一プアドレス表を参照して調べ出現頻度の低いものから順に並び変える（S 41〜 S 44) 。そして並べ変えた文字セットに該当する文字セット種グループに格納されている文字セット位置情報を検索ファイルから取り出す（S 45) 。そして、二つの文字セット種グループ間で、検索入力文字セット列の全文出現頻度の低い文字セッ卜の文字セット位置情報の文字セット位置審号を i、全文検索頻度の高い文字セットの文字セット位置番号を jとするとき、（文字セット位置番号 iの文字セッ卜の文字セット位置情報） ― (文字セット位置番号 jの文字セットの文字セット位置情報） = ( i - j ) x (最大属性数）である文字セット位置情報を一致結果として取り出す（S 46) 。そして照合が終わったか否かを判断した後（S 47、 48) 、文字セット位置情報の中から属性審号が a i の文字セット位置情報を選別し、検索入力に一致した検索単位と文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置番号を検索結果として出力する。（ S 49、 50) 。なお、ステップ S 48で照合が連続した場合、これまでの一致結果の文字セット位置情報と、検索入力を並べ変えた文字セッ卜の中の次の文字セッ卜に該当する文字セット種グループに格納されている文字セット位置情報とで照合を行う ( S 46) 。
[0153] なお、全文検索の高速性が求められる場合、文字セットの構成文字数を増加するとますます文字セッ卜の出現頻度が低くなり、各文字セット種グループに格納される文字セット位置情報が少なくなるため、容易に高速化を実現できる。
[0154] 上記例では、 A S C I Iコードによる英文処理の例を示したがフランス語やドィッ ί吾も同様の文字セット構成と検索フ了ィルの構成で全文検索を高速化できる。また他の表音文字で表現される言語の検索処理も同様に処理できる。
[0155] 7欠に第二実施例および第三実施例として、表音文字である仮名文字と表意文字である漢字とが混在して使用される日本語を用、て全文検索処理を行う場合の例について説明する。
[0156] 日本語の文字列は漢字混じりの文字列である。このため漢字について着目すると漢字は字種が欧文字に比べて多く、同一の漢字が繰り返し現れる頻度は、文字を使用する欧文に比べると非常に少ない。例えば、日本語の文字列で「通信」という 2つの文字列を使用する用語は多々あるとしても「通信 · ·」という文字列は「通信回線」、「通信装置」のように 4文字で同一の文字が発生する頻度は非常に少なくなる。また仮名文字あるいは平仮名文字も欧文文字に比べるとその字種が多い。このため、漢字を含む文字列の場合には、漢字 1文字ごとの文字種構成の検索ファィルぁるいは 2文^ ϋ成の文字セット検索ファィルを用いて検索処理を行っても検索処理を高速化できる。
[0157] 次に第二実施例を説明する。
[0158] この第二実施例では 2文字で構成される文字セットによる検索ファィル作成と検索処理について説明する。この第二実施例では 3文字で構成される文字セットの処理を行う第一実施例とは基本的に共通である。ただし日本語処理を行うため、 J I Sコード表を用いて検索ファィルおよび文字セットグループアドレス表を作成する点が異なる。
[0159] 以下具体的に説明する。
[0160] この第二実施例の検索ファイルは図 8に示すように J I Sコード表に記載されている文字順に配列された文字セット群で構成される。また、各文字セット群は図 9の文字セット群一覧に示すように J I Sコード表に示されている文字順に、記載文字を先頭文字とする 2文字の文字列で構成される文字セットグループで構成される。この文字セット種グループの先頭番地を図 9の文字セット群一覧の記載順に配列したものが図 10に示す文字セットグループアドレス表でる。
[0161] そして第一実施例と同じく、検索単位の最大文字数 n = 10000、最大属性数 a = 10、 8番目の検索単位である本文（属性番号 = 5 ) の先頭から第 121〜125番目の文字位置に「通信文書の」という文字列があった場合、この文字列の中の「通信文書」は、「通信」、「信文」、「文書」、「書の」の文字セットに分解され、それぞれ「801215」、「801225」、「801235」、「801245」の文字セット位置情報が与えられ、この文字セット位置情報を検索ファィルの領域に格納する。この「通信文書」の文字セット位置情報を検索ファイルに格納した例を図 11に示す。この検索ファィル作成処理の手順は第一実施例と同じであるためその流れ図は省略する。
[0162] またこのように作成された検索ファィルを用いる検索処理は、入力された検索入力文字列をその先頭文字から 2文字単位の文字セットに分解して検索入力文字セット列を作成し、この各文字セットに該当する文字セット種グループを検索フアイルから取り出して照合し、検索入力文字セット列を構成できる文字セット位置情報の組み合わせを取り出し、この取り出した文字セット位置情報から検索入力と同じ属性を有する文字セット位置情報を照合一致として取り出す。この照合 —致した文字セット位置情報から検索単位審号と文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置審号を検索結果として出力する。なお、検索入力文字列を先頭文字から 2文字単位の文字セットに分解したとき、最後の文字セットが 1文字になり 2文字単位の文字セットを作成できないことがある。このときには最後の文字セットの直前の文字セッ卜の後部から 1文字を取り出し、最後の文字セッ卜の前部に連結して 2文字単位の文字セットを作成する。検索入力文字列として「通信文書」が指定された場合、検索入力文字セットは「通信」と「文書」になる。全文出現頻度が「通信」 < 「文書」の順であり、照合をこの順序に行うとすると、まず検索ファィル中の「通信」の文字セットグループ欄と「文書」の文字セットグループ欄から取り出した文字セット位置情報との間で、検索入力「通信文書」における「通」と「文」との文字位置が各々「1 - と「3」であるから、これらの差に最大属性数 =10を乗算した「一 20」になる文字セット情報を抽出して、図 11の検索ファイルの「通信」内の文字セット位置情報の「801215」と「文書」内の「801235」とを連続性ある文字セット位置情報の組み合わせとして抽出することができる。そして、検索条件は「本文」であるため、属性審号が「5」の文字セット位置情報として「801215」と「801235」が抽出でき、共通する検索単位審号「8」の検索単位と文字位置番号「121〜124」が検索結果として取り出される。このように、検索処理の手順は第一実施例と同じであるためその流れ図は省略する。
[0163] 次に第三^ 例として、 1文字ごとの文字種検索ファィルを作成して検索する場合を說明する。漢字はその字種が多いため、 1文字ごとの文字種グループ検索ファイルを作成してもその検索処理を高速化できる。
[0164] この第三実施例は第二実施例とは、文字セット種別の検索ファイルを構成するか、 1文字 fi^!Iの検索ファィルを作成するかの違いであり、その検索ファィル作成処理および検索処理は基本的には同一である。
[0165] まず、検索ファィル作成処理においては、第二実施例と比べると、 1文字ごとの文字種グループを生成するため、文字檷ァドレス表および検索ファィルの構成干異なる。
[0166] 検索ファィル作成処理における①検索ファィル領、域確保、 ②各構成文字への文字位置情報の付与、 ③文字種別ごとにグループ化した文字位置情報のファィルへの格納の 3つの動作は細部では異なるが基本的には第一実施例および第二実施例と変わらない。
[0167] ① 検索ファイルの領域確保
[0168] 本第三鍾例では、日本語の全文の構成文字を分類し、 J I Sコード表に記載されている文字種別に出現頻度を計数し、検索ファイルの領域を確保する。これにより、第二^ M例の図 10に相当する文字種グループの先頭番地を J I Sコード表の記載順、に配歹 ίίした文字欄ァドレス表を図 12に示すように作成する。この文字欄ァドレス表は第二実施例の文字欄ァドレス.表に比べると文字種ごとにその先頭番地が記載されたものであり、その数が J I S第 1水準、 J I S第 2水準に従うため、未使用コードを含めて No.8836文字欄の数ですむ。
[0169] ② 各構成文字への文字位置情報の付与
[0170] この文字位置情報の付与は、本実施例が 1文字ごとに文字位置情報を付与するため、文字位置番号が検索単位ごとに文字の先頭から順に 1、 2、 3…と昇順に番号が付与されて文字位置番号が付与され、
[0171] 文字位置情報は、最大検索単位文字数を π、最大属性数を aとするとき、文字位置情報コード = {検索単位番号 x n +文字位置審号 } x a +属性番号
[0172] …… （4 ) で与えるようにする。
[0173] 例えば第二実施例と同じような「通信文書」という文字列が 8番目の検索単位である本文（属性番号 = 5 ) の先頭から第 121〜124番目の文字位置にあった場合、この「通」、「信」、「文」、「書」の文字にはそれぞれ「801215」、「80 1225」、「8012235 」、「8012245 」の文字位置情報が与えられる。
[0174] ③ 文字位置情報の検索ファイルへの登録
[0175] 文字種グループは、図 12に示される文字欄アドレス表に基づいて J I Sコード表に記載された順に検索ファィルに格納される。この結果文字種グループに分けられて文字位置情報が格納された図 13に示される検索ファィルが作成される。この検索ファィル作成処理の流れ図を図 14に示す。
[0176] 次にこの文字種毎に構成された検索ファィルの検索処理を説明する。
[0177] まず、検索入力文字列の各構成文字に該当する文字欄ァドレス表内の文字欄先頭番地を算出する。そして検索入力文字歹 IJを出現頻度の低いものから並べ変え、それぞれの文字に該当する文字種グループに格納されている文字位置情報を取り出し、その取り出した文字位置情報を基に、出現頻度の低い文字種グループから順に、各文字種グループ間で検索単位が等しくかつ文字位置番号の差が検索入力文字列の文字位置差に等し！/、文字位置情報の組み合わせを抽出する。この文字位置情報の照合は、検索入力文字列の全文出現鍾度の低！/ヽ文字の文字位置番号を i、全文出現頻度の高い文字の文字位置審号を jとするとき、
[0178] { (文字位置審号 iの文字の文字位置情幸 β) - (文字位置審号 jの文字の文字位置情報） } = ( i - j ) x a - ( 5 )
[0179] a =最大属'隱
[0180] の式に合致する文字位置情報の組み合わせを抽出すればよい。
[0181] これにより、文字種グループ間で検索単位が共通で文字の連続性がある文字位置情報が抽岀され、この抽出した文字位置情報から検索入力と同じ属性を有する文字位置情報を照^""致として取り出す。この照合一致した文字位置情報から検索入力に合致する検索単位と文字位置が抽出される。
[0182] 具体的に検索対象としてが指定され、検索入力文字列として「通信文書」が指定されたとする。
[0183] このとき、各文字の全文出現頻度が「書」く「文」く「信」 < 「通」の順であり、照合をこの順序に行うとする。まず検索ファイル中の「書」の文字欄から取り出した文字位置情報と「文」の文字欄から取り出した文字位置情報とを上記 (5) 式を使用してその差が「一10」になる文字位置情報を抽出すると、検索ファイルの「書」内の文字位置情報の「801245」と「文」内の「801235」とを連続性ある文字位置情報として抽出することができる。次に、「書」の中で照合結果として残った文字位置情報と、「信」に該当する検索ファイルの文字欄から取り出した文字位置情報を上記 (5)式をして、その差が「一 20」になる文字位置情報を抽出すると、「書」内の文字位置情報の「8012 」と「信」内の文字位置情報「80 1225J とを連続性ある文字位置情報の組み合わせとして抽出することができる。同様にして、「書」内の文字位置情報の「801245」と「通」内の文字位置情報「 801215」とを連続性ある文字位置情報の組み合わせとして抽出することができる。さらに検索条件は「」であるから、これまでの文字列照合で残った文字位置情報の中から、属性蕃号が「5」の文字位置情報として、「801215」〜「801245 Jを抽出できる。これにより、この文字列が属する検索単位蕃号「8」の検索単位と文字位匿番号「121 〜124 」を検索結果として出力する。この検索処理の流れ図を図 15に示す。
[0184] なお、この実施例において、漢字については 1文字毎に、連続する片仮名文字、平仮名文字については 2文字セットとして検索ファィルを作成することもできる。特に技術用語として片仮名文字が使用されることが多く、検索入力文字列として仮名文字が入力される場合があるため、このように漢字については 1文字毎に、連続する片仮名文字や平仮名文字については 2文字セットとして検索ファィルを作成することも検索の高速化のために有効である。
[0185] 次に第四実施例ないし第六実施例として、マルチキーワードを用いる部分一致検索処理方式の例を説明する。
[0186] マルチキーワード情報検索方式として例えば図書検索システムの例を挙げて説明する。図書検索システムにおけるレコードは、図書名、著者名、発行者名、刊行年、抄録などのキーワードから構成されている。そして、このキーワードを舍む各レコードを登録して検索ファィルを作成し、検索入力としてキーヮードあるいはキーヮードの一部の文字列を入力して対応するレコードを検索出力する。この検索ファィルの作成を説明する。
[0187] まず検索対象となる各レコ一ドに登録順序に従って昇順にレコード識別符号を付与する。次に各レコードが有するキーワードの論理的な種別を属性として、その属性を示すキーワード属性符号を付与する。図書検索システムの場合、図書名、著者名、発行者名、刊行年、抄録などの属性を示すキーワード属性符号が付与され、検索入力と図書検索システムのキーワード間に論理的な関連付けが行われている。検索者は検索する図書を特定しゃすいキ一ヮードゃ記憶しているキーヮードを検索入力とする。さらに、キーワードを 1文字あるいは文字セットに分解し、各文字にキーヮードの先頭からの文字位置を示す文字位置順序符号または各文字セットにキーワードの先頭からの各文字セッ卜の先頭文字位置を示す文字セット位置順序符号を付与する。これらのレコード識別符号、キーワード属性符号、文字位置順序符号または文字セット位置順序符号とからキーワードの各文字の文字位置情報または各文字セットの文字セット位置情報を生成する。このときキーヮ一ド厲性を文字位置で表せるように、キーヮード厲性符号ごとにあらかじめ設定されたキーヮードの先頭文字位置を定数として文字位置情報または文字セット位置情報に加算されるようにしている。この文字位置情報または文字セット位置情報を文字種または文字セット種ごとにグループ化し、これら各グループを集合して検索ファイルを作成する。したがつてこの検索ファイルは、文字種ごとに文字位置情報または文字セット種ごとに文字セット位置情報が格納された形のフアイル構造となる。
[0188] 検索処理では、検^ λ力文字列と検索入力文字列属性とが射で 1個 ±入力される。各検索入力文字列について検索入力文字列を 1文字ごとあるいは文字セットに分解し、検索ファィル中から検索入力を構成する文字と同じ文字の文字位置情報あるいは検索入力を構成する文字セッ卜と同じ文字セッ卜の文字セット位置情報を取り出す。そしてレコード識別符号とキーワード属性符号が共通で文字位衝!! I序符号または文字セット位置順序符号が検索入力文字列の文字位置順序符号あるいは文字セット位置順序符号と等しい順序であり、かつそのキーワード属性符号が検索入力と等しい文字位置情報または文字セット位置情報の組み合わせを照合して取り出す。取り出した文字位置情報または文字セット位置情報からすべての検索入力文字列に共通するレコ一ド識別符号を検索結果として取り出す。次に第四実施例を説明する。
[0189] 本第四実施例での情報検索処理は、検索処理に供するための検索対象となるレコ一ドが有するマルチキーワードから作成するキーワード列について各キーヮードの構成文字をキーヮード列の先頭文字から 1文字ずつ取り出し、その文字と次に続く文字の合計 3文字で文字セットを作成し、これらの文字セット種ごとにグループ化した文字セッ卜種グループで構成される検索ファィルを作成する検索ファィル作成処理と、検索ファィルとの照合一致を行って検索入力に合致するキ一ワードのレコ一ドを抽出する検索処理との二つに分けられる。まず、検索ファイル作成処理について説明する。
[0190] この検索ファイル作成処理は、第一実施例と同じく、 ①検索ファイル領域確保、 ②各キーワード構成文字セットへの文字セット位置情報の付与、 ③文字セット種別ごとにグループ化した文字セット位置情報の検索ファィルへの格納の 3つに分けることができる。この各処理にっ、てそれぞれ説明する。
[0191] ① 検索ファイル領域確保
[0192] 検索ファィルは、第一実施例で用いた図 2に示すように、 A S C I Iコード表 Π己載されている文字順に配列された文字セット群で構成される。各文字セット群の 2文字目と 3文字目は第一実施例と同じく図 3の文字セット群の第 2、第 3 文字組み合わせ一覧の記載のように構成され、図 4に示す文字セットグル一プアドレス表の記載順に配列される。
[0193] ② 各キーワード構成文字セッ卜への文字セット位置情報の付与
[0194] ここで述べる文字セット位置情報は、レコードが有する各キ一ヮードをキ一ヮ一ド属性番号に対応するキ一ヮード属性領域に配列して作成するキーヮード列において、各キーヮードを構成する文字セットが属するレコードの登録する順審を示すレコード番号と、キーワードにおけるその文字セッ卜の出現する位置をその文字セッ卜の先頭文字の位置で示す文字セット位置審号と、キーワードの論理的な種別を示すキーワード属性番号とで作成される。
[0195] まずレコード番号を説明する。例えば、一般的な図書検索システムでは、図書名、著者名、発行者名、刊行年、抄録のキーワードで図書を検索する。このときレコードは、図書名、著者名、発行者名、刊行年、抄録のキーワードで構成される検索対象であって、このレコードが登録される順序に 1から昇順に番号を付与してレコード審号とする。
[0196] 次にキーワード属性番号を説明する。一般的に検索者は、検索する図書を特定しゃすいキーワードを検索入力としたり、あるいは記憶しているキーワードを検索入力する。このため図書検索システムでは、例えば図書名、著者名、発行者名、刊行年、抄録の各キ一ワードにキーヮード属性を付加し、検索入力と図書検索システムのキーワード間に論理的な関連付けを行っている。ここではキーワード厲性審号として、図書名に「1」、著者名に「2」、発行者名に「3」、刊行年に「4」、抄録に「5」を付与する。
[0197] 次に文字セット位置審号を説明する。キーワードごとに、キーワードの先頭から 1文字ずつ取り出し、その文字と次に続く文字の合計 3文字で文字セットを作成し、作成順に 1、 2、 3 · · ♦と异順に蕃号を付与して文字セット位置番号とする。キーワードの最後の文字にはキーワードの最後を示す特殊記号 EM (ェンドマーク）を 2文字付加し、この EM記号と連結させて文字セットとし、文字セット位置蕃号を付与する。なお EM記号には A S C I Iコード表の「D E L_lの A S C I Iコード「7 F」を割り当てる。次にキーワード列を説明する。レコ一ドの有するキーワードに対する部分一致検索を検索入力文字セット列との文字セット列照合により実現するために、レコードの有するすべてのキ一ヮードを連結して文字列を構成し、これをキーワード列とする。すなわち、各キーワードをキーヮード属性番号に対応する固定長のキーヮード属性領域に配列しキーヮード列を作成する。これによりキーワード列における文字位置から、その文字セットが属するキーワードの属性がわかる。なお、各キーワード属性領域に続いてキーヮ―ド属性領域の区切りを示す EM記号がキーヮ一ド列に配列される。この EM 記号はキ一ヮ一ドの最後を示す特殊記号 EMと同じものを使用する。
[0198] そしてこのキーヮード列を対象として、レコード番号とキーワード属性番号と文字セット位置蕃号からキーワードを構成するすべての文字セットを整数からなるコードに変換して文字セット位置情報を作成する。この文字セット位置情報は、次の式 ( 6 ) で与えられる整数のコードである。
[0199] 文字セット位置情報コード-レコード審号 x n + (P a - 1 ) + p〜（6 ) n :キーワード列文字数
[0200] P a ：キーワード属性蕃号 aのキーワード属性領域のキーワード列における先
[0201] P ：文字セット位置番号例えば、キーワード列のキーワード属性領域サイズが、図書名 =64バイト 64文字、著者名 =32バイト 32文字、発行者 =64バイト 64文字、刊行年 =4バイ卜 4文字、抄録 =1000バイト 1000文字の図書検索システムにおいて、レコード審号が 100 のレコードが、「図書名 = E l e c t r o n i c Pub l i s h i ng」、「著者名 =J o o s t K i s t」、「発行者 =CR〇〇M HELM」、「刊行年 =1990」、「抄録 =W i t h~s o c i e t y」の場合、キーワード列は図 16に示すようになる。このときキーワード列は 1169バイト 1169文字であるから各文字セッ卜の文字セット位置情報は図 17に示すように構成される。
[0202] そして、このように文字セット位置情報をそれぞれ 4バイ卜のコードで構成すれば、 1169文字数のキーワード列を 2³²÷1169 367万個取り扱うことが可能であ^ )o
[0203] ③ 文字セット位置情報の検索ファィルへの登録
[0204] 次にこの各文字セットごとに付与された文字セット位置情報を検索ファィルに登録する。
[0205] 上述のように文字セット種グループは、図 2、図 3に示す A S C ί Iコード表に記載された順に検索ファイルに格納される。そして各文字セッ卜の文字セット位置情報を各文字セット種グループに登録する。この文字セット位置情報の登録は、該当する文字セット種グループの未格納領域の先頭にそれぞれ文字セット位置情報を格納することによって行われる。このため、登録順にレコ一ド審号を付与すれば文字セット種グループ内には文字セット位置情報が数値順の昇順に登録されることになる。
[0206] 上述の図書名「E l e c t r o n i c Pub l i s h i ng」の文字セット位置情報を検索ファイルに登録した例を図 18に示す。このとき、各グループ内の文字セット位置情報は昇順に格納される。このファイル容量は、文字セット位置情報が 4バイトであると、
[0207] 4バイト x { (図書名構成文字数） + (著者名構成文字数） + (発行者名構
[0208] :0 成文字数） +4+ (抄録構成文字数） } i になる。
[0209] なお、文字セット位置情報の追加登録は、第一実施例と同様に追カ卩レコードが有する各キーヮードの各文字セットに該当するグループの未格納領域の先頭新規コ一ドを追加することで行う。また、削除は削除レコ一ドが有する各キーヮードの各文字セットに該当するグループ内の該当文字セット位置情報を特殊記号（ここでは A S C I Iコードの「0 0 0 0」）に変更することによって行う。これにより追加登録と削除を短時間に行うことができる。
[0210] なお上述のようにこの検索ファィルの各文字セット？重グループごとに格された文字セット位置情報は、第一実施例で示した図 4の文字セットグル一プアドレス表の各文字セットグループ先頭蕃地をディレクトリとして取り出すことができ α
[0211] JSLLの検索ファイルの作成処理の流れを図 19a、図 19 bに示す。
[0212] すなわち、文字セット種の出現度数を計数して文字セット欄アドレス表を作成し（S 111、 112 ) 、検索ファイルの領域を確保する（S 113 ) 。次にレコード登録順位カウンタを k = lに初期設定して、レコード審号を「1」に、キーヮード列文字数を n = 1169に、キーヮード属性領域の先頭文字位置を図書名甩として
[0213] P t = K著者名用として Ρ ₂ =66、発行者名用として Ρ ₃ =99、刊行年用として Ρ ₄ =164、抄録用として Ρ ₅ =169を設定する（S 114 ) 。そして最初のレコードを取り出す (S 115 ) 。ここまでが登録の前処理である。ここからレコードごとの登録処理となり、まず、キーワード属性審号を a = lにセッ卜し（S 116)、レコードの中からキーワード属性審号 aのキーワードを取り出す（S 117 ) 。さらに、キーワードの構成文字数を mに、文字セット位置番号を p = lに、キ一ヮ一ド属性蕃号 aに該当するキーヮード属性領域の先頭文字位置を P a に設定する
[0214] (S 118 ) 。次に、取り出したキーワードの先頭文字から順に、文字セット位置蕃号 Pに相当する文字セット位置情報を
[0215]
[0216] の式を用いて作成する（S 119 ) 0 そして、文字セット位置番号 Pにある文字セットの文字セット種グループが格納されている検索ファイルの文字セット攔を示す文字セット欄ディレクトリ（文字セット欄先頭審地）を文字セット欄アドレス表から取り出して（S 120 ) 、文字セット欄ディレクトリが示す検索ファイルの未格納領域の先頭行に文字セット位置情報を格納する（S 121 ) 。そして、 P = P + 1、 m=m— 1とし、キーヮード内のすべての文字セットを処理したところで（S 122、 S 123)、 a = a + 1 でキーワード属性番号を + 1して次のキーワード処理に移る（S 124、 S 125 ) 。また、レコードが有するすべてのキーワードを処理すると、 k = k + lでレコード登録順位カウンタを + 1して次のレコードの処理に移る（S 126、 S 127、 S 128 ) 。全レコードの処理が終了すると登録処理が終わる（S 126 ) 。
[0217] 次にこのようにして作成された検索ファィルを用いる検索処理について説明す。
[0218] 本実施例では、検索ファイルから取り出した文字セット位置情報を対象として、検索入力文字列と同じ文字列を含むキーワードを文字列照合し、かつ検索入力と同じ属性であることを確認後、すべての検索入力文字列に共通するレコードを検索する例で説明する。
[0219] まず、その検索処理は第一実施例と同様に以下の構成からなっている。
[0220] ①検索入力文字列をその先頭文字から 3文字単位の文字セッ卜に分解し、検索入力文字セット列を作成する。
[0221] ②検索入力文字セット列の各文字セットに該当する文字セットグループアドレス表内の文字セットグループ先頭番地を算出する。
[0222] ③検索入力文字セット列を出現頻度の少ない文字セットから順に並べ変える。
[0223] ④並べ変えた文字セット列の先頭から順に該当する文字セット種グループを検索フアイルから取り出してそこに格納されている文字セット位置情報から検索入力文字セット列を構成できる文字セット位置情報の組み合わせを取り出す。
[0224] ⑤抽出した文字セット位置情報から検索入力と同じ属性を有する文字セット位置情報を取り出し照合一致とする。 ⑤①〜⑤を検索入力数分繰り返した後、すべての検索入力文字列に共通するレコ一ド蕃号を検索結果として出力する。
[0225] 次に具体的にそれぞれの処理を説明する。
[0226] ① 検索入力文字セット列の作成
[0227] 第一実施例と同様に、検索ファイルに格納されている文字セッ卜と照合可能なように、検索入力文字列を先頭文字から 3文字単位の文字セットに分解し、検索入力文字セット列とする。なお、検索入力文字列を先頭文字から 3文字単位の文字セットに分解したとき、最後の文字セットが 3文字未満になり文字セットを作成できないことがある。このときには、最後の文字セットの直前の文字セットの後部から、不足文字数分の文字を取り出し、最後の文字セットの前部に連結して 3文字単位の文字セットを作成する。
[0228] ② 各検索入力文字セッ卜に該当する文字セットグル一プアドレス表内の文字セットグループ先頭蕃地の算出
[0229] 第一雄例の検索ファイルの作成時と同様に、各検索入力文字セットの図 1と図 3で示す各文字セットの記載順位を算出し、これを文字セットグループアドレス表における各検索入力文字セットのァドレスボインタとする。
[0230] ③ 出現鏃順の並べ変え
[0231] そして、第一例と同様に、検索ファイルの各文字セット種グループの先頭蕃地を示す文字セットグル一プアドレス表の文字セットグループ先頭審地を参照して、各検索入力文字セッ卜の出現歩!^を調べ、検索入力文字セット列を全キーワードにおける出現頻度の低レ、ものから順に並べ変える。
[0232] ④ 文字列の照合
[0233] 第一難例と同様に、出現頻度の低い文字セットから文字セットグル一プアドレス表を参照してそれぞれの文字セット種グループ欄に格納されている文字セット位置情報を取り出す。そして取り出した文字セット位置情報をもとに、出現頻度の低い文字セット種グループから順に、各文字セット種グループ間でレコード番号とキ一ヮ一ド属性番号が等しくかつ文字セット位置番号の差が検索入力文字列の該当する文字セットの先頭文字位置差に等しい文字セット位匿情報の ,01み合わせを抽出する。
[0234] この文字セット位置情報の照合は、検索入力文字セット列の全キーワードにおける出現頻度の低い文字セット位置番号を i、出現頻度の高い文字セット位置番号を jとするとき、
[0235] (文字セット位置審号 iの文字セットの文字セット位置情報） ― （文字セット位置番号 jの文字セット位置情報） = i— j … （ 8 ) の式で照合すればよい。
[0236] ⑤ キーワード属性番号の照合
[0237] 文字列照合から得られた文字セット位置情報の文字セット位置審号についてキ一ワード属性を照合する。すなわち、文字セット位置番号が 1〜64ならば文字セット位置情報のキーワード属性は図書名であり、文字セット位置番号が 66〜97ならば文字セット位置情報のキーワード厲性は著者名であり、文字セット位置審号が 99〜162 ならば文字セット位置情報のキーワード属性は発行者名であり、文字セット位置番号が 164 -167 ならば文字セット位置情報のキーワード属性は刊行年であり、文字セット位置蕃号が 169〜： L168ならば文字セット位置情報のキーヮ —ド属性は抄録であることがわかる。そこで、文字セット列照合で得られた文字セット位置情報の中から検索入力時に指定された属性と同じ文字セット位置情報だけを取り出す。
[0238] ⑥ レコード審号の抽出
[0239] 検索入力の数だけ①〜⑤を繰り返し、得られた各検索入力文字列に該当する文字セット位置情報間で、すべての検索入力文字列に共通するレコ一ド審号を取り出す。
[0240] なお、 1検索入力を複数の文字列で指定する場合、例えば抄録のような文字数が多い項目を対象とする場合よくあることであるが、最初の文字列のキーワード属性照合終了後、 2審目以降の文字列に対しては、その文字列の最初の照合文字セットの文字セット種グループから、それまで得られたレコード蕃号とキーヮード属性審号を有する文字セット位置情報を取り出し、得られた文字セット位置情報を文字セット列照合の先頭文字の文字セット種グループとして同じ文字列内の他の文字セットについて照合処理を行う。
[0241] 以上の②〜⑥の動作を具体例を挙げて説明する。
[0242] 検索対象として図書名が指定され、検索入力文字列としては「E 1 e c t r o j が指定されたとする。この場合図書名のキーワードの属性の属性審号は「： U とする。検索入力が「E 1 e c t r o」であるから、検索入力文字セットは「E 1 e」と「c t r j と「o」になる。しかし「o j は 1文字なので、「o」の前にある 2文字と結して「t r o」とする。全文出現頻度が「E 1 e j く「c t r」く「t r o jの順であるとすると、照合をこの順序に行う。まず検索ファイル中の「E 1 e」の文字セットグループ ffiから取り出した文字セット位置情報と「c t r jの文字セットグループ欄から取り出した文字セット位置情報との間で、検索入力「E 1 e c t r o _j における「E」と「c」との文字位置が各々「1」と「であるから、文字セット位置差が「一 3」になる文字セット位置情報を抽出して図 18の検索ファイルの「E I e j 内の文字セット位置情報の「116901」と「c t r」内の「116904」とを連続性ある文字セット位置情報の組み合わせとして抽出することができる。この照合結果と「t r o j の文字セットグル一プ欄から取り出した文字セット位置情報との間で、検索入力「； E 1 e c t r o」における「Ej と「t」との文字位置が各々「1」と「5」であるから、文字セット位置差が「4」になる文字セット位置情報を抽出して、「E 1 e」内の上記照合結果である文字セット位置情報の「116901」と図 18の検索ファイルの「t r o」内の文字セット位置情報の「116905」とを連続性ある文字セット位置情報の組み合わせとして抽出できる。したがって、検索入力「Ε 1 e c t r 0 j に対し、文字セッ卜位置情報「116901」と「116904」と「116905」とが、レコード蕃号とキーワード属性蕃号が等しくかつ連続である文字セットであることがわかる。さらに、キーワード属性は「図書名」であるから、これまでの文字セット列照合で残った文字セット位置情報の中から、文字位置審号が、 1〜64の文字セット位置情報として「116901」と「116904」と「116905」を抽出できる。
[0243] また文字セット位置番号は、キーワード列の文字数が「1169」であるから、 116901 + 1169=100余り 1から、 1と 4と 5であることがわかる。またこの文字列が属するレコード番号は 100 であることもわかる。
[0244] この検索処理動作を図 20 a、図 20 bにフローチャートとして示す。
[0245] すなわち、キーヮード列文字数を n = 1169に、キーヮード属性領域の文字位置範囲 P _a を図書名は P , =1〜64、著者名は P ₂ =66〜97、発行者名は P ₃ =99 〜162、刊行年は P ₄ =16 〜167、抄録は P _s =169〜1168に、キーワード属性蕃号を a = 1に設定し（ S 131 ) 、キーヮード属性番号 aの検索入力文字列がある場合にはそれを取り出す（S 132、 S 133 ) 。ここからは検索入力文字列の照合処理になる。そこで、検索入力を取り出し、検索入力文字列の先頭から 3文字単位の文字セットに分割して検索入力文字セット列を作成し、その文字セット数一 1を照合回数 qとし（S 133、 S 134 ) 、検索入力文字セット列を全キーヮ —ドにおける出現頻度の低いものから順に並べ変える（S 136 ) 。そして検索フアイルから、並べ変えた文字セットに該当する文字セット種グループ欄に格納されている文字セット位置情報を取り出す（S 137 ) 。次に検索入力文字セット列の全キ一ワードにおける出現頻度が低レ、文字セットの文字セット位置審号を i、出現頻度の高い文字セットの文字セット位置審号を jとするとき、（文字セット位置審号 iの文字セットの文字セット位置情報）一（文字セット位置審号 jの文字セッ卜の文字セット位置情報） = i— jである文字セット位置情報を取り出す ( S 138 ) 。同様の処理を検索入力文字セット列の残りの文字セットについても行い（S 139、 S 140 ) 、残った文字セッ卜位置情報の中から文字セット位置番号がキーワード属性審号 aの文字位置範囲 P _a 内にあるレコ一ド審号だけを取り出す。文字セット位置情報から文字セット位置審号を取り出すには、次の式（9 ) を用いる。
[0246] (文字セット位置情報） ÷ (キーヮード列文字数） =レコード審号余り文字セット位置蕃号 … （9 ) ここまでの処理で、検索入力文字列を文字列として持ち、さらに検索入力された属性と同じキーワードを有するレコード蕃号がわかる（S 141 ) 。抄録まで同様の処理を行い、検索入力された属性と同じキーヮードを有するレコ一ド番号を取り出す（S 142、 S 143 ) 。すべての検索入力文字列の照合が終わると、残つたレコード蕃号を对象として、すべての検索入力文字列に共通するレコ一ド審号を検索結果として出力する（S 144 ) 上記実施例では検索入力が 1個以上の場合について説明した。また、検索入力が複数の場合には各検索入力間で論理積演算を行う例として説明したが、論理積演算以外の論理演算を伴う複数の検索入力の場合は照合結果として残ったレコード番号を各検索入力に対応付けて、指定された論理演算を行って満足するレコ一ド蕃号を検索結果として出力する。
[0247] なお、第一実施例の場合と同じく、他の表音文字についての検索処理も同様に行なえる。
[0248] また、検索の高速性が求められる場合、文字セットの構成文字数を増加するとますま^字セットの出現頻度が低くなり、各文字セット種グループに格納される文字セット位置情報が少なくなるため、容易に高速化を実現できる。
[0249] 次に第五難色例を説明する。
[0250] この第五^ M例は、第一実施例に対する第二実施例の関係と同じであり、日本語検索処理を行う場合に、 2文字単位の文字セットを用い、 J I Sコード表にしたがった検索ファィルを作成する。
[0251] すなわち、キーワード列のキーワード属性領域サイズが、図書名 64バイト 32文字、著者名 32バイト 16文字、発行者名 =64バイト 32文字、刊行年 = 8バイト 4文字、抄録 400バイト 200文字の図書検索システムで、レコード審号が 100 のレコードが、「図書名 =通信の構造」、「著者名 =田中一郎」、「発行者 =太平洋出版」、「刊行年 =1990」、「抄録 =初めての人にも〜てしている」の場合は、そのキーヮード歹 1Jは第四実施例と同じように図 21のようになり、そのときのキーワード列は 578バイト 289文字であるため、各文字セッ卜の文字セット位置情報は図 22のように作成される。この図書名の「通信文書の構造」の文字セット位置情報を登録した^ ¾索フアイルの例を図 23に示す。
[0252] 本第五実施例の検索フ了ィルの作成処理および検索処理手順はキーヮード文字数およびキーヮード属性領域の設定が異なるだけで第四実施例と同じである。第二実施例で述べたように、欧文字よりその字種が多い仮名文字および漢字を使う日本語文書の検索処理では 2文字セットの検索フアイルを用いることは有効である。なお、第三実施例のところで述べたように、仮名文字のみこの第五実施例による文字セッ卜の検索ファイルとし、漢字については第六実施例による 1文字単位の文字種グループ検索ファィルとしてもよい。
[0253] 次に第六実施例を説明する。
[0254] この第六実施例は、第一実施例および第二実施例に対する第三実施例の関係と同じであり、漢字を舍む日本語の場合には、 1文字単位の文字位置情報を格納した文字種グループから構成された検索ファィルを用いる。
[0255] 第五実施例の図 21に示すキーワード列のレコードが与えられたとき、この第六実施例は 1文字単位で文字位置情報を作成するため、その文字位置情報は、文字位置情報コード-レコード番号 X H + ( P a - 1 ) + p
[0256] n ：キーワード列文字数
[0257] P a ：キーヮード属性番号 aのキーヮード属性領域のキーヮード列における先頭文字位置
[0258] P ：文字位置番号
[0259] で与えられる数字コードである。
[0260] このため第五実施例の図 21に示すキーワード列のレコードが与えられたとき、その文字位置情報は図 24のように構成される。また図書名「通信文書の構造」のの文字位置情報を検索ファィルに登録した例を図 25に示す。
[0261] この第六実施例での検索ファイルの作成処理の流れ図を図 26 a、図 26 bに、また検索処理の流れ図を図 27 a、図 27 bに示す。
[0262] この検索ファィル作成処理および検索処理の手順は基本的には第四実施例と同じであり、検索フアイルが 1文字単位の文字種別グループで構成されて！、る点および日本語処理のため J I Sコードに基づいて構成されている点が異なっている _c 〔産業上の利用可能性〕
[0263] 本発明は検索対象文字列の文字セット種ごとにその文字セッ卜が属する検索単位識別符：号、文字セット位置順序符号、検索単位の ί重別を示す属性蕃号からなる文字セット位置情報を格納した検索ファイルを作成し、この検索ファイルを検索入力の文字列を構成する文字セット種ごとにその文字セット位置情報を取り出して、検索入力に合致する文字列を検索するようにした。また字種の多い文字については文字種別に文字位置情報が格納された検索ファィルを作成して、検索入力の文字列を構成する文字種ごとにその文字位置情報を取り出して検索入力に合致する文字列を検索するようにした。
[0264] このため、本発明には次に述べる優れた効果がある。
[0265] (1) 検索処理のための文字列照合回数を低減することができるため、高速照合を行うことか'できる。
[0266] (2) 文字セットと文字位置に着目して検索処理を行うため任意の文字列検索を行うことができ、全文検索処理のィンデックス方式やプリサーチ方式のように登録時に文字列抽出を行う必要はな
[0267] (3) 専用のハードウエアを用いることなくソフトウェアだけで高速検索を実現できるため、汎用の情報処理装置で全文検索を効率よく行うことができ汎用性に富む。
[0268] (4) データベースシステムでマルチキ一ヮ一ドを用いた部分一致検索を行う場合に、従来のィンデックス方式のように巨大な部分一致検索甩文字列のィンデックスを必要とせず、また,検索対象となるレコ一ドが有するキーヮ一ドから自動的に検索ファィルを作成することができるため、データベースシステムを経済的に構築できる。
[0269] (5) 全文検索のデータベースシステ厶に利用したとき、その検索ファィルの作成にキ一ヮ一ド抽出を行う必要がなく、機械入力された論文などの文字列から自動的に検索フ了ィルを作成することができるため、データベースシステムを経済的にかつ効率よく構築することが可能である。
[0270] (6) 欧文字のように字種の少ない文字からなる文字列も、その文字列を構成する文字セット種グループで文字セット位置情報を格納した検索ファィルを作成して検索することにより、同じ文字列の出現頻度は少ないため各文字セッ卜の出現頓度を低く抑えることができ、出現頻度の少ない文字セッ卜での検索照合を可能とするので高速検索が可能となる。
[0271] (7) 検索処理は検索入力文字列の対応する文字または文字セッ卜の文字位置情報または文字セット位置情報のみを取り出せばよいだけなので、検索ファイルの対応する文字種の文字位置情報または文字セッ卜の文字セット位置情報が外部記憶装置にあった場合でも、この検索ファィルの内容を主メモリに転送する時間が少なくてすみ、検索処理を高速化することができる。

权利要求:
Claims詰:求の範囲
1. 検索射象となる文字列を検索を行う単位である検索単位に分けこの検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、
この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を付与する属性符号付与手段と、
検索対象となる文字列を各文字ごとにその文字と次に続く合計 r文字（ただし rは 2 _Lの自然数）からなる文字セットとし、この文字セットの属する検索単位中での文字セットの先頭文字位置を示 f¾字セット位置順序符号を付与する文字セット位置順序符号付与手段と、
上記検索単位識別符号と文字セット位置順序符号と属性符号とからなる文字セット位置情報を作成して、この文字セット位置情報を文字セット種ごとの領域に格納して検索フ了ィルを作成する手段と
を備えた情報検索処理方式。
2. 文字セット位置情報は、
{ (検索単位識別符号 x n ) 十文字セット位置順序符号 } x a +属性符号 n ：最大検索単位文字数
a ：最大属性数
なる数字コ一ドとして与えられる請求項 1記載の情報検索処理方式。
3. 検索対象となる文字列について、文字列を構成する文字セットごとに、文字セット列からなり検索を行う単位である検索単位に昇順に付された検索単位識別符号と、検索単位中でのその文字セッ卜の先頭文字位置を示す文字セット位置順序符号と、検索単位の論理区分を示す属性符号とからなる文字セット位置情報を作成し、文字セット a ^ごとに格納した検索ファイルを備え、
検索入力文字列の構成文字を先頭文字から r文字単位の文字セットに分解した検索入力文字セット列を構成し、分解した文字セットと同じ文字セットの文字セット位置情報を上記検索ファイルから取り出す手段と、
この取り出した各文字セッ卜の文字セット位置情報間で、検索単位識別符号が共通で文字セット位置順序符号の差が検索入力文字列の該当する文字セットの先頭文字位置差に等しくかつその属性符号が検索入力と等しい文字セット位置情報の組み合わせを抽出する手段と、
この抽出された文字セット位置情報の組み合わせに基づいて文字セット列が属する検索単位および各文字セット構成各文字の検索単位における先頭文字からの位置を示す文字位置を検索結果として出力する手段と
を備えた情報検索処理方式。
4. 検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は、検索入力の出現頻度の低い文字セッ卜から順に行う請求項 3記載の情報検索処理方式。
5. 検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は、出現頻度の低い文字セットの文字セット位置順序符号を i、出現齄度の高、文字セットの文字セット位置順序符号を jとするとき、（文字セット位置順序符号 iの文字セッ卜の文字セット位置情報） ― (文字セット位置順序符号 jの文字セットの文字セット位置情報） = ( i - j ) X (最大属性数 ) に合致する文字セット位置情報の組み合わせを抽出する
請求項 ³または請求項 4記載の情報検索処理方式。
6. 検索対象文字列が記号を含む欧文文字列の場合は少なくとも 3文字記号単位の文字セッ卜で記号を含む欧文字の文字セット種のみの検索ファイルを用いる請求項 1ないし 5のいずれか記載の情報検索処理方式。
7. 検索対象文字列が漢字を含む日本語文字列の場合は、 2文字単位の文字セット種で構成された検索ファィルを用いる請求項 1ないし 5のいずれか記載の情報検索処理方式。
8. 検索対象文字列が漢字を含む日本語文字列の場合は、仮名文字について少なくとも 2文字単位の文字セット種で構成された検索フアイルを用、る請求項 1ないし 5のいずれか記載の情報検索処理方式。
9. 検索対象となる文字列を検索を行う単位である検索単位に分けこの検索単位ごとに昇順の符号を付与する検索単位識別符号付与手段と、
この分けられた検索単位に対してその検索単位の論理的な区分を示す属性符号を付与する属性符号付与手段と、検索対象となる文字列を各文字ごとに検索単位中での位置を示す文字位置順序情報を付与する文字位置匿序符号付与手段と、
上記検索単位識別符号と文字位置順序符号と属性符号とからなる文字位置情報を作成して、この文字位置情報を文字種ごとの領域に格鈉して検索ファィルを作成する手段と
を備えた情報検索処理方式。
10. 文字位置情報は、
{ (検索単位識別符号 x n ) +文字位置順序符号 } x a +属性符号
n ：最大検索単位文字数
a ：最大属性数
なる数字コ一ドとして与えられる請求項 9記載の情報検索処理方式。
11. 検索対象となる文字列について、文字列を構成する文字ごとに、文字検索を行う単位である検索単位に昇順に付された検索単位識別符号と、検索単位中でのその文字の位置を示す文字位置順序符号と、検索単位の論理区分を示す属性符号とからなる文字位置情報を文字種別ごとに格納した検索ファィルを備え、検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手段と、
この取り出した各文字の文字位置情報間で、検索単位識別符号が共通で文字位置順序符号が検索の文字列と等しい文字位置情報の組み合わせを抽出する手段と、
この抽出された文字位置情報の組み合わせに基づいて文字列が属する検索単位および文字位置を検索結果として出力する手段と
を備えた情報検索処理方式。
12. 検索入力文字列を構成できる文字位置情報の組み合わせの抽出は、検索入力文字の出現頻度の低い文字から順に行う請求項 11記載の情報検索処理方式。
13. 検索入力の文字列を構成できる文字位置情報の組み合わせの抽出は、出現頻度の低い文字の文字位置順序符号を i、出現頻度の高い文字の文字位置順序符号を jとするとき、（文字位置順序符号 iの文字の文字位置情報） ― （文字位置順序符号 jの文字の文字位置情報） = ( i - j ) x (最大属性数）に合致する文字位置情報の組み合わせを抽出する
請求項 11または請求項 12記載の情報検索処理方式。
14. 検索対象となるレコードごとに昇順の符号を付与するレコード識別符号付与手段と、
このレコードが有する各キーワードにキーワードの論理的な区分を示す属性符号を付与するキーワード属性符号付与手段と、
このキーワードを各文字ごとにその文字と次に続く合計 r文字（但し rは 2以上の自然数）からなる文字セットとし、この文字セットにキーヮード中での文字セットの先頭文字位置を示す文字セット位置順序符号を付与する文字セット位置順序符号付与手段と、
上記レコード識別符号とキーワード属性符号と文字セット位置順序符号とからなる文字セット位置情報を作成して、この文字セット位置情報を文字セット種ごとの領域に格納して検索ファィルを作成する手段と
を備えた情報検索処理方式。
15. 文字セット位置情報は、レコードを構成する各キーワードをキーワード属性符号に対応してキーワード属性領域に配列されたキーワード列の各キーワードを構成するすべての文字セットについて、
レコード識別符号 x n + ( P _a - 1 ) +文字セット位置順序符号
n ：キーワード列文字数
P _a ：キーワード属性符号 aのキ一ヮ一ド属性領域のキーワード列における先頭文字位置
なる数字コ一ドとして与えられる請求項 14記載の情報検索処理方式。
16. 検索対象となるレコードのキーワード列について、各キーワードを構成する文字ごとに、レコードごとに昇順に付与されたレコード識別符号と、このレコードが有するキーヮードの論理区分を示すキーワード属性符号とキーワード中でのその文字セッ卜の先頭文字位置を示す文字セット位置順序符号とからなる文字セット位置情報を文字セット種別ごとに格納した検索ファイルを備え、
検索入力文字列の構成文字を先頭文字から r文字単位の文字セットに分解した検索入力文字セット列を構成し、分解した文字セッ卜と同じ文字セッ卜の文字セット位置情報を上記検索ファィルから取り出す手段と、
この取り出した各文字セットの文字セット位置情報間で、レコード識別符号とキーヮード属性符号が共通で文字セット位置順序符号が検索入力文字列の該当する文字セットの先頭文字位置差に等しく、かつそのキーワード属性符号が検索入力と等しい文字セット位置情報の組み合わせを抽出する手段と、
この抽出された文字セット位置情報の組み合わせに基づいて検索入力に対応するレコ一ド識別符号を検索結果として出力する手段と
を備えた情報検索処理方式。
17. 検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は検索入力文字セット列の全キ一ワードにおける出現頻度の低、文字セットから順に行う請求項 16記載の情報検索処理方式。
18. 検索入力文字セット列と同じ文字セット列を構成できる文字セット位置情報の組み合わせの抽出は、検索入力文字セット列の全キーワードにおける出現频度の低い文字セット位置順序符号を i、出現頻度の高い文字セット位置順序符号を jとするとき、（文字セット位置順序符号 iの文字セットの文字セット位置情報 ) ― (文字セット位置順序符号 jの文字セットの文字セット位置情報） = i - j に合致する文字セット位置情報の組み合わせを抽出する請求項 16または請求項 17 記載の情報検索処理方式。
19. キーヮードが記号を含む欧文字列の場合は、少なくとも 3文字記号単位の文字セットで記号を含む欧文字の文字セット種のみの検索ファィルを用、る請求項 14ないし請求項 18のいずれか記載の情報検索処理方式。
20. キーワードが漢字を含む日本語文字列の場合は、 2文字単位の文字セット種で構成された検索ファィルを用いる請求項 14ないし請求項 18のいずれか記載の情報検索処理方式。
21. キーワードが漢字を含む日本語文字列の場合は、仮名文字について少なくと- も 2文字単位の文字セット種で構成された検索ファィルを用いる請求項 14ないし請求項 18のいずれか記載の情報検索処理方式。
22. 検索对象となるレコードごとに昇順の符号を付与するレコード識別符号付与手段と、このレコードが有する各キーワードにキーワードの論理的な区分を示す厲性符号を付与するキーワード属性符号付与手段と、
このキーワードを各文字ごとに分解し、各文字にキーワード中での位置を示す文字位置順序符号を付与する文字位置順序符号付与手段と、
上記レコード識別符号とキーワード属性符号と文字位置順序符号とからなる文字位置情報を作成して、この文字位置情報を文字種ごとの領域に格納して検索フアイルを作成する手段と
を備えた情報検索処理方式。
23. 文字位置情報は、レコードを構成する各キーワードをキーワード厲性符号に対Sしてキーヮード属性領域に配列されたキ一ヮ一ド列の各キーヮードを構成するすべての文字について、
レコード識別符号 x n + ( P _a — 1 ) 十文字位置順序符号
n ：キーワード列文字数
P a ：キーヮード属性符号 aのキーヮード属性領域のキーヮード列における先頭文字位置
なる数字コ一ドとして与えられる請求項 22記載の情報検索処理方式。
24. 検索対象となるレコードのキーワード列について、各キーワードを構成する文字ごとに、レコードごとに昇順に付与されたレコード識別符号と、このレコードが有するキーヮードの論理区分を示すキーヮード属性符号とキーヮード中でのその文字の位置を示す文字位置順序符号とからなる文字位置情報を文字種別ごとに格納した検索ファィルを備え、
検索入力文字列の構成文字と同じ文字の文字位置情報を上記検索ファィルから取り出す手段と、
この取り出した各文字の文字位置情報間で、レコ一ド識別符号とキーワード厲性符号が共通で文字位置順序符号が検索入力の文字歹 ijと等しい順序であり、かつそのキーヮ一ド属性符号が検索入力と等しい文字位置情報の組み合わせを抽出する手段と、
この抽出された文字位置情報の組み合わせに基づいて検索入力に対応するレコ -ド識別符号を検索結果として出力する手段と 5 ϋ を備えた情報検索処理方式。
25. 検索入力の文字列を構成できる文字位置情報の組み合わせ抽出は、検索入力文字の全キ一ワードにおける出現頻度の低レ、文字から順に行う請求項 24記載の情報検索処理方式。
26. 検索入力の文字列を構成できる文字位置情報の組み合わせの抽出は、出現頻度の低い文字の文字位置順序符号を i、出現頻度の高い文字の文字位置順序符号を jとするとき、（文字位置順序符号 iの文字の文字位置情報） ― (文字位置順序符号 jの文字の文字位置情報） = i - jに合致する文字位置情報の組み合わせを抽出する請求項 24または請求項 25記載の情報検索処理方式。

类似技术:

公开号 | 公开日 | 专利标题

Gagie et al.2012|New algorithms on wavelet trees and applications to information retrieval

Lovins1968|Development of a stemming algorithm

Stonebraker et al.1983|Document processing in a relational database system

JP3581652B2|2004-10-27|データ検索システムと方法およびサーチ・エンジンにおけるその使用

US5099426A|1992-03-24|Method for use of morphological information to cross reference keywords used for information retrieval

US5276616A|1994-01-04|Apparatus for automatically generating index

EP0597630B1|2002-07-31|Method for resolution of natural-language queries against full-text databases

US6151604A|2000-11-21|Method and apparatus for improved information storage and retrieval system

JP4544674B2|2010-09-15|選択文字列に関連する情報を提供するシステム

US6470347B1|2002-10-22|Method, system, program, and data structure for a dense array storing character strings

US7747642B2|2010-06-29|Matching engine for querying relevant documents

US5745745A|1998-04-28|Text search method and apparatus for structured documents

US5721899A|1998-02-24|Retrieval apparatus using compressed trie node and retrieval method thereof

US8473501B2|2013-06-25|Methods, computer systems, software and storage media for handling many data elements for search and annotation

US5983171A|1999-11-09|Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program

US5926811A|1999-07-20|Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching

US7516130B2|2009-04-07|Matching engine with signature generation

US4554631A|1985-11-19|Keyword search automatic limiting method

Pfeifer et al.1996|Retrieval effectiveness of proper name search methods

US5706496A|1998-01-06|Full-text search apparatus utilizing two-stage index file to achieve high speed and reliability of searching a text which is a continuous sequence of characters

JP2693780B2|1997-12-24|テキストプロセシングシステム、及び単位又は化学式が正確且つ一貫して使用されているかどうかをテキストプロセシングシステムでチェックするための方法

US6173251B1|2001-01-09|Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program

KR101157693B1|2012-06-21|토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법

US6131082A|2000-10-10|Machine assisted translation tools utilizing an inverted index and list of letter n-grams

KR100666064B1|2007-01-10|인터랙티브 검색 쿼리 개선 시스템 및 방법

同族专利:

公开号 | 公开日

引用文献:

公开号 | 申请日 | 公开日 | 申请人 | 专利标题

法律状态:
1992-06-11| AK| Designated states|Kind code of ref document: A1 Designated state(s): CA US |

1992-06-11| AL| Designated countries for regional patents|Kind code of ref document: A1 Designated state(s): DE FR GB |

1993-09-30| NENP| Non-entry into the national phase in:|Ref country code: CA |

优先权:

申请号 | 申请日 | 专利标题

[返回顶部]